知识蒸馏(KD),最称为模型压缩的有效方法,旨在将更大的网络(教师)的知识转移到更小的网络(学生)。传统的KD方法通常采用以监督方式培训的教师模型,其中输出标签仅作为目标处理。我们进一步扩展了这一受监督方案,我们为KD,即Oracle老师推出了一种新型的教师模型,它利用源输入和输出标签的嵌入来提取更准确的知识来转移到学生。所提出的模型遵循变压器网络的编码器解码器注意结构,这允许模型从输出标签上参加相关信息。在三种不同的序列学习任务中进行了广泛的实验:语音识别,场景文本识别和机器翻译。从实验结果来看,我们经验证明,拟议的模型在这些任务中改善了学生,同时在教师模型的培训时间内实现了相当大的速度。
translated by 谷歌翻译
对于大部分现实生活中的话语,其意图不能仅由它们的语义或句法特征决定。尽管并非所有的社会语言和务实信息都可以数字化,但至少语音特征在理解口语中是必不可少的。尤其是在诸如韩国人之类的头部最终语言中,句子 - 最终韵律在识别说话者的意图方面非常重要。本文提出了一个系统,该系统鉴于其笔录在某些情况下使用辅助声学特征,可以识别出口语的固有意图。这里的要点是对于歧视意图需要声学提示的情况。因此,提出的分类系统决定给定的话语是利用来自头部金属的语调依赖性的片段,陈述,问题,命令还是命令/命令。基于对参与数据注释的韩语的直观理解,我们构建了一个网络,该网络识别语音的意图,并通过测试句子验证其实用性。该系统如果与最新的语音识别器结合在一起,则预计将灵活地插入各种语言理解模块中。
translated by 谷歌翻译
联合学习(FL)是一种机器学习(ML)技术,旨在减少对用户数据隐私的威胁。培训是使用用户设备上的原始数据(称为客户端)进行的,只有称为梯度的培训结果被发送到服务器进行汇总并生成更新的模型。但是,我们不能假设可以使用私人信息来信任服务器,例如与数据所有者或数据源相关的元数据。因此,将客户信息隐藏在服务器中有助于减少与隐私相关的攻击。因此,客户身份的隐私以及客户数据的隐私是使此类攻击更加困难的必要条件。本文提出了基于组签名的FL的高效和隐私权协议。一个名为GSFL的新组合签名旨在保护客户数据和身份的隐私,而且考虑考虑到联合学习的迭代过程,还大大降低了计算和通信成本。我们表明,在计算,通信和信号成本方面,GSFL优于现有方法。另外,我们表明所提出的协议可以在联合学习环境中处理各种安全攻击。
translated by 谷歌翻译
现代深度学习在各个领域取得了巨大的成功。但是,它需要标记大量数据,这是昂贵且劳动密集型的。积极学习(AL)确定要标记的最有用的样本,对于最大化培训过程的效率变得越来越重要。现有的AL方法主要仅使用单个最终固定模型来获取要标记的样品。这种策略可能还不够好,因为没有考虑为给定培训数据的模型的结构不确定性来获取样品。在这项研究中,我们提出了一种基于常规随机梯度下降(SGD)优化产生的时间自我汇总的新颖获取标准。通过捕获通过SGD迭代获得的中间网络权重来获得这些自我复杂模型。我们的收购功能依赖于学生和教师模型之间的一致性度量。为学生模型提供了固定数量的时间自我安装模型,并且教师模型是通过平均学生模型来构建的。使用拟议的获取标准,我们提出了AL算法,即基于学生教师的AL(ST-Conal)。在CIFAR-10,CIFAR-100,CALTECH-256和TINY IMAGENET数据集上进行的图像分类任务进行的实验表明,所提出的ST-Conal实现的性能要比现有的获取方法要好得多。此外,广泛的实验显示了我们方法的鲁棒性和有效性。
translated by 谷歌翻译
人们对从长尾班级分布中学习的具有挑战性的视觉感知任务越来越兴趣。训练数据集中的极端类失衡使模型偏向于识别多数级数据而不是少数级数据。最近,已经提出了两个分支网络的双分支网络(DBN)框架。传统的分支和重新平衡分支用于提高长尾视觉识别的准确性。重新平衡分支使用反向采样器来生成类平衡的训练样本,以减轻由于类不平衡而减轻偏见。尽管该策略在处理偏见方面非常成功,但使用反向采样器进行培训可以降低表示形式的学习绩效。为了减轻这个问题,常规方法使用了精心设计的累积学习策略,在整个培训阶段,重新平衡分支的影响逐渐增加。在这项研究中,我们旨在开发一种简单而有效的方法,以不需要优化的累积学习而在不累积学习的情况下提高DBN的性能。我们设计了一种称为双边混合增强的简单数据增强方法,该方法将统一采样器中的一个样品与反向采样器中的另一个样品结合在一起,以产生训练样本。此外,我们介绍了阶级条件的温度缩放,从而减轻对拟议的DBN结构的多数级别的偏见。我们对广泛使用的长尾视觉识别数据集进行的实验表明,双边混合增加在改善DBN的表示性能方面非常有效,并且所提出的方法可以实现某些类别的先进绩效。
translated by 谷歌翻译
Stylegan最近的成功表明,预训练的Stylegan潜在空间对现实的视频生成很有用。但是,由于难以确定stylegan潜在空间的方向和幅度,因此视频中产生的运动通常在语义上没有意义。在本文中,我们提出了一个框架来通过利用多模式(声音图像文本)嵌入空间来生成现实视频。由于声音提供了场景的时间上下文,因此我们的框架学会了生成与声音一致的视频。首先,我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后,我们结合了基于夹子的多模式嵌入空间,以进一步提供视听关系。最后,提出的帧发电机学会在潜在空间中找到轨迹,该空间与相应的声音相干,并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集(视听对)。实验表明,我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序,包括图像和视频编辑,以验证我们方法的有效性。
translated by 谷歌翻译
Federated learning (FL) is a key enabler for efficient communication and computing, leveraging devices' distributed computing capabilities. However, applying FL in practice is challenging due to the local devices' heterogeneous energy, wireless channel conditions, and non-independently and identically distributed (non-IID) data distributions. To cope with these issues, this paper proposes a novel learning framework by integrating FL and width-adjustable slimmable neural networks (SNN). Integrating FL with SNNs is challenging due to time-varying channel conditions and data distributions. In addition, existing multi-width SNN training algorithms are sensitive to the data distributions across devices, which makes SNN ill-suited for FL. Motivated by this, we propose a communication and energy-efficient SNN-based FL (named SlimFL) that jointly utilizes superposition coding (SC) for global model aggregation and superposition training (ST) for updating local models. By applying SC, SlimFL exchanges the superposition of multiple-width configurations decoded as many times as possible for a given communication throughput. Leveraging ST, SlimFL aligns the forward propagation of different width configurations while avoiding inter-width interference during backpropagation. We formally prove the convergence of SlimFL. The result reveals that SlimFL is not only communication-efficient but also deals with non-IID data distributions and poor channel conditions, which is also corroborated by data-intensive simulations.
translated by 谷歌翻译
我们考虑在排名一的尖刺模型中检测信号的存在的问题。对于一般的非高斯噪声,假设信号是从rademacher先验中汲取的,我们证明,当信号噪声比率低于信号噪声时,尖峰模型的对数可能性比(LR)收敛到高斯一定的阈值。阈值是最佳的,因为在其上方,可以通过转换的主组件分析(PCA)进行可靠的检测。从对数LR的限制高斯的平均值和方差,我们计算了I型误差之和的限制以及似然比测试的类型II误差。对于噪声不对称,但信号是对称的,我们还证明了一个排名一的尖峰IID模型的结果相似。
translated by 谷歌翻译
移动设备是大数据的不可或缺的来源。联合学习(FL)通过交换本地培训的模型而不是其原始数据来利用这些私人数据具有很大的潜力。然而,移动设备通常是能量有限且无线连接的,并且FL不能灵活地应对它们的异构和时变的能量容量和通信吞吐量,限制采用。通过这些问题,我们提出了一种新颖的能源和通信有效的流动框架,被创造的Slimfl。为了解决异构能量容量问题,SLIMFL中的每个设备都运行宽度可调可泥瓦神经网络(SNN)。为了解决异构通信吞吐量问题,每个全宽(1.0倍)SNN模型及其半宽度(0.5美元$ x)模型在传输之前是叠加编码的,并且在接收后连续解码为0.5x或1.0美元$ 1.0 $ x模型取决于频道质量。仿真结果表明,SLIMFL可以通过合理的精度和收敛速度同时培养0.5美元和1.0美元的X模型,而是使用2美元的通信资源分别培训这两种型号。令人惊讶的是,SLIMFL甚至具有比Vanilla FL的较低的能量占地面积更高的精度,对于较差的通道和非IID数据分布,Vanilla Fl会缓慢收敛。
translated by 谷歌翻译
本文旨在整合两个协同技术,联合学习(FL)和宽度可调的可泥质网络(SNN)架构。通过交换当地培训的移动设备模型来保留数据隐私。通过采用SNNS作为本地模型,FL可以灵活地应对移动设备的时变能容量。然而,结合FL和SNN是非琐碎的,特别是在与时变通道条件的无线连接下。此外,现有的多宽SNN训练算法对跨设备的数据分布敏感,因此不适用于FL。由此激励,我们提出了一种通信和节能SNN的FL(命名SLIMFL),共同利用叠加编码(SC)进行全局模型聚合和叠加训练(ST),以更新本地模型。通过施加SC,SLIMFL交换多个宽度配置的叠加,这对于给定的通信吞吐量尽可能多地解码。利用ST,SLIMFL对准不同宽度配置的前向传播,同时避免在背部衰退期间的横宽干扰。我们正式证明了Slimfl的融合。结果表明,SLIMFL不仅是通信的,而且可以抵消非IID数据分布和差的信道条件,这也被模拟证实。
translated by 谷歌翻译